1 Résumé de la mission:

La poule qui chante, entreprise française d’agroalimentaire nous consulte pour déterminer un plan d’internationalisation de ses ventes.

Après avoir nettoyé, préparé, et sélectionné les données, nous allons maintenant pouvoir passer à l’étape d’analyse.

2 Matrice des corellations linéaires de pearson

Ce premier aperçu nous indique rapidement que:

  • il existe une corrélation assez forte entre la disponibilité totale de protéines d’un pays et sa disponibilité totale, son PIB et son ratio de protéines d’origine animale
  • la variation de population est moyennement anti-corrélée à la plupart des autres variables que nous avons choisi.

3 Méthode de l’Analyse en Composantes Principales (ACP)

3.1 Principe

L’Objectif de l’ACP est de condenser l’information contenu dans notre tableau de variables.

A cette fin, nous analysons les corrélations linéaires entre les variables et nous faisons une représentation graphique des distances entre individus.

Cela nous permet de dégager des liaisons entre variables et des ressemblances entre individus.

3.2 representativité

ce graphique nous indique que 66.4% de l’information est résumée sur les deux premières dimensions.

On pourrait passer à 77.4% en prenant en considération la 3 ème dimension.

3.3 correlations dimensionnelles

Nous constatons ici que la 3eme dimension est principalement expliquée par une variable déjà incluse dans notre première dimension.

Nous allons donc nous restreindre à l’étude des deux premières dimensions pour 66.4% de l’information.

3.4 Cercle des corellations Dim 1/2

Nous constatons que la première dimension est très fortement corrélée à la disponibilité totale de protéines, ainsi que (disponibilité alimentaire et pib).

La seconde dimension elle, semble plutôt indiquer l’origine des protéines entre import et auto_suffisance

3.5 variables contributives

Les variables d’interêt sur l’axe de composante primaire 1 sont la disonibilité de proteines totales, la disponibilité totale, le pib et le ratio de protéines d’origines animales.

La variation de population est très proche du seuil sans réussir à l’atteindre

Les variables d’intérêt sur le second axe de composantes primaires sont la part d’importation et l’auto suffisance

Cette visualisation nous montre le “poids” des différentes variables dans l’anayse.

Sans surprise, les disponibilités, et origines de protéines ont plus d’importance que la variation de population.

3.6 Projection des individus

Ce graphique nous illustre le positionnement des pays “individus” les uns par rapport aux autres.

3.7 projection individus sur cercle correlation de variables

Il est plus aisé de comprendre que les pays qui auront le plus d’intérêt pour nous seront situés sur la droite du graphique (pays riches dits développés), et plutôt sur le haut du graphique (pays importateurs de denrées)

3.8 classification manuelle des individus

deux continents se détachent un peu du lot:

  • L’Europe dont la majorité des pays sont sur la droite du graphe (pays riches, développés)
  • L’Afrique qui se trouve quasi exclusivement dans la gauche du graphe (peu de disponibilité alimentaire, faible PIB -> pays pauvre)

Cependant les fortes disparités d’auto suffisance et d’importation, ainsi que pour le niveau de richesse / développement des pays au sein d’un même continent nous empêchent de choisir un continent comme groupe de pays cibles.

Nous utiliserons les résultats de l’ACP pour regrouper des pays en fin de document après avoir mis en pratique une autre méthode de “classification”.

4 Méthode des K-Means

On utilise ici un des algorithmes de clustering les plus répandus.

Il permet d’analyser un jeu de données afin de regrouper les individus similaires en groupes (ou clusters)

4.1 Determination du nombre de clusters

La première chose à faire est de calculer le bon nombre de groupes pour trier nos individus. Il existe de nombreuses méthodes pour déterminer ce nombre de groupes idéal.

La méthode Silhouette de détermination du nombre idéal de cluster nous propose deux groupes.

Pour notre usage, deux groupes seront certainement insuffisants, nous risquerions de nous retrouver avec une classification “pays riche” / “pays pauvre”.

La méthode du coude elle, nous recommande 4 groupes ce qui devrait nous permettre de mieux trier les pays.

Nous allons vérifier la représentativité de notre méthode en fonction du nombre de clusters

Résultats de représentativité en %:

représentativité = ((somme des carrés internes) /(somme des carrés total)) X 100 (higher the better)

  • 2 clusters : 32.33 %
  • 4 clusters : 50.87 %

Nous allons donc continuer notre étude en considérant 4 groupes ou “clusters”

4.2 Zmean toutes variables

Voici une représentation globale des moyennes de chaque variable pour chaque groupe de pays.

ce graphique nous permet d’interpréter les différences entre les groupes afin de choisir vers quel groupe de pays nous tourner.

A la lecture de ce graphe, il semblerait que nos groupes correspondent:

  • cluster 1: pays très faible dispo alimentaire et très dépendants des importations
  • cluster 2: pays très faible dispo alimentaire et forte variation de population
  • cluster 3: pays dispo alimentaire issue de l’industrie locale
  • cluster 4: pays très forte dispo alimentaire issue d’industries locales et d’importations

Nous allons regarder chaque variable de plus près.

4.3 Importations

Les clusters les plus importateurs sont le 1 et le 4

4.4 Auto suffisance

Les clusters avec l’industrie la plus développée sont les 3 et 4

4.5 PIB par habitant

Le cluster le plus riche et de très loin est le cluster 4

4.6 Variations de population

La variation de population positive ou négative indique une instabilité (guerre, période de développement du pays etc…)

Nous devons privilégier les pays avec une faible variation de population comme 1 et 4

4.7 Disponibilité tous aliments

Les pays ou l’alimentation est la plus disponible sont dans les groupes 3 et 4

4.8 Disponibilité Protéines toutes origines

Les pays les plus consommateurs de protéines sont les groupes 3 et 4

4.9 Ratio protéines origine animale

Les pays dont la part animale est la plus élevée dans le total de proteines sont dans les groupes 1 et 4

D’un point de vue exportation, il parait pertinent de se concentrer en priorité vers les pays:

  • stables et à l’économie suffisante (pib, disponibilité alimentaires et variation de population)
  • habitués à l’importation (part importation élevée)

Les clusters : - 1 et 2 contiennent des pays pauvres, consommant peu de proteines animales et ne sont pas un bon choix pour l’importation de volaille. - 3 contient des pays un peu plus riches, consommant plus habituellement des proteines animales, mais très autonomes dans leur production. - 4 contient les pays les plus riches dont la production ne suffit pas toujours à combler les besoins, ils sont la meilleure cible pour l’importation de volaille.

5 Clustering agglomératif hiérarchique (ou Agglomerative Hierarchical Clustering)

5.1 principe

C’est une méthode d’analyse qui cherche à construire une hiérarchie de groupes (ou clusters) sous la forme d’une structure arborescente.

5.2 Classification issue de l’ACP

cette classification des pays issu de l’ACP nous propose un découpage des pays en 4 clusters.

Tenant compte du fait que nous voulons les pays les plus “en haut à droite” de l’ACP, le cluster 4 en violet semble le plus pertinent.

5.3 Classification issue du Kmeans

CLassification entre clusters.

Classification des individus dans chaque cluster

Visualisation des clusters issus du Kmean nous montre une disposition des pays très similaires aux résultats de l’ACP

Cette projection des clusters sur la mappemonde nous permet de mieux visualiser les pays de chaque cluster.

5 pays cluster 1
Zone variation_pop pib_hab Disponibilite_totale Dispo_proteines_total ratio_animal_prot part_Import auto_suff alpha.3 Continent Cluster
Antigua-et-Barbuda 5.5492263 15383.415 2429 81.15 0.45 1.0000000 0.0000000 ATG Amerique du Nord 1
Arménie 2.0995869 3914.525 3072 97.33 0.25 0.7608696 0.2391304 ARM Asie 1
Bahamas 4.9977447 32719.152 2043 61.37 0.51 0.8000000 0.2000000 BHS Amerique du Nord 1
Cap-vert 6.3857413 3292.638 2512 69.33 0.21 0.9230769 0.0769231 CPV Afrique 1
Cuba 0.7297614 8541.214 3409 88.40 0.28 0.9149560 0.0850440 CUB Amerique du Nord 1
Djibouti 8.7500014 2930.697 2677 66.43 0.11 1.0000000 0.0000000 DJI Afrique 1
5 pays cluster 2
Zone variation_pop pib_hab Disponibilite_totale Dispo_proteines_total ratio_animal_prot part_Import auto_suff alpha.3 Continent Cluster
Afghanistan 16.477889 513.086 1997 54.09 0.08 0.5087719 0.4912281 AFG Asie 2
Angola 18.754373 4095.812 2266 54.09 0.18 0.8683386 0.1316614 AGO Afrique 2
Bangladesh 5.747917 1538.234 2596 60.22 0.16 0.0000000 1.0000000 BGD Asie 2
Belize 11.174260 4887.560 2694 67.11 0.26 0.0000000 1.0000000 BLZ Amerique du Nord 2
Bénin 14.861877 1136.593 2754 64.45 0.19 0.8723404 0.1276596 BEN Afrique 2
Botswana 8.115688 7893.388 2338 65.09 0.20 0.3750000 0.6250000 BWA Afrique 2
5 pays cluster 3
Zone variation_pop pib_hab Disponibilite_totale Dispo_proteines_total ratio_animal_prot part_Import auto_suff alpha.3 Continent Cluster
Afrique du Sud 7.906280 6121.877 2987 83.36 0.34 0.2426818 0.7870633 ZAF Afrique 3
Albanie -1.026974 4514.205 3400 119.50 0.22 0.7450980 0.2549020 ALB Europe 3
Algérie 10.713956 4109.701 3345 92.85 0.10 0.0072202 0.9927798 DZA Afrique 3
Arabie Saoudite 13.535560 20802.465 3194 87.51 0.27 0.5436747 0.4638554 SAU Asie 3
Argentine 5.225563 14627.616 3239 102.66 0.51 0.0040775 1.1014271 ARG Amerique du sud 3
Azerbaïdjan 6.267105 4150.869 3102 92.30 0.18 0.2061069 0.7938931 AZE Asie 3
5 pays cluster 4
Zone variation_pop pib_hab Disponibilite_totale Dispo_proteines_total ratio_animal_prot part_Import auto_suff alpha.3 Continent Cluster
Allemagne 2.081915 44552.06 3559 104.07 0.33 0.4923977 0.8853801 DEU Europe 4
Australie 7.337914 57628.86 3307 108.01 0.47 0.0128721 1.0209171 AUS Océanie 4
Autriche 3.736362 47306.41 3694 108.11 0.34 0.6111111 0.8222222 AUT Europe 4
Belgique 3.016502 44020.07 3770 101.35 0.29 2.3310345 3.1931034 BEL Europe 4
Canada 5.183161 44906.75 3492 101.33 0.34 0.1267409 0.9867688 CAN Amerique du Nord 4
Danemark 2.163128 57938.80 3383 112.92 0.34 0.7964072 1.0359281 DNK Europe 4

6 Conclusions

Une grande part des pays de ce groupe étant Européens, Il est certainement pertinent de les privilégier afin de profiter d’accord politiques et commerciaux bien établis.

6.1 Europe:

pays europeens cluster 4
Zone variation_pop pib_hab Disponibilite_totale Dispo_proteines_total ratio_animal_prot part_Import auto_suff alpha.3 Continent Cluster
Luxembourg 11.500837 108431.93 3334 105.79 0.38 1.1000000 0.0000000 LUX Europe 4
Suisse 5.591800 83313.01 3414 95.46 0.31 0.3695652 0.6594203 CHE Europe 4
Norvège 5.636885 75220.81 3384 109.98 0.30 0.0194175 0.9805825 NOR Europe 4
Islande 2.684154 73231.73 3629 141.34 0.32 0.1666667 0.8333333 ISL Europe 4
Irlande 3.148324 71391.01 3714 105.81 0.32 0.8534483 0.9482759 IRL Europe 4
Danemark 2.163128 57938.80 3383 112.92 0.34 0.7964072 1.0359281 DNK Europe 4
Suède 3.794311 54621.35 3214 107.03 0.35 0.3853211 0.7201835 SWE Europe 4
Pays-Bas 1.366777 48989.64 3251 104.43 0.33 2.0965517 3.7931034 NLD Europe 4
Autriche 3.736362 47306.41 3694 108.11 0.34 0.6111111 0.8222222 AUT Europe 4
Finlande 1.784028 46310.12 3337 117.77 0.30 0.1203008 0.9699248 FIN Europe 4
Allemagne 2.081915 44552.06 3559 104.07 0.33 0.4923977 0.8853801 DEU Europe 4
Belgique 3.016502 44020.07 3770 101.35 0.29 2.3310345 3.1931034 BEL Europe 4
Royaume-Uni 3.412845 39900.87 3428 103.87 0.35 0.3487019 0.8119964 GBR Europe 4
France 2.011018 38720.65 3556 112.08 0.34 0.2883191 0.9971510 FRA Europe 4
Malte 3.822583 29205.18 3460 116.32 0.34 0.6923077 0.3076923 MLT Europe 4

En triant les pays par PIB/Habitant le trio Luxembourg, Suisse et Norvège s’impose.

6.2 Hors Europe:

pays non europeens cluster 4
Zone variation_pop pib_hab Disponibilite_totale Dispo_proteines_total ratio_animal_prot part_Import auto_suff alpha.3 Continent Cluster
Macao 10.379779 81516.66 2999 100.37 0.61 0.8846154 0.1153846 MAC Asie 4
États-Unis 3.515710 60116.57 3762 113.61 0.43 0.0067048 1.1945489 USA Amerique du Nord 4
Australie 7.337914 57628.86 3307 108.01 0.47 0.0128721 1.0209171 AUS Océanie 4
Hong-Kong 3.682129 46705.03 3353 137.88 0.65 3.3843284 0.0895522 HKG Asie 4
Canada 5.183161 44906.75 3492 101.33 0.34 0.1267409 0.9867688 CAN Amerique du Nord 4
Nouvelle-Zélande 5.227241 43686.60 3153 90.80 0.43 0.0049751 1.1094527 NZL Océanie 4
Israël 8.258700 42850.55 3507 122.62 0.40 0.0000000 1.0047923 ISR Asie 4
Émirats Arabes Unis 3.780598 40644.80 3370 107.26 0.26 1.1188630 0.1240310 ARE Asie 4
Koweït 21.119052 29754.61 3445 99.69 0.33 0.7248677 0.2962963 KWT Asie 4